Tipos de datos específicos
Encuentro 2
Los tipos de datos en lenguaje R se reconocen por:
int (integer): números enteros
num o dbl (numeric): números reales
chr (character): caracteres (texto)
logi o lgl (logical): valores lógicos
Date: fechas
dttm (date-time): fechas y horas
fct (factor): factores
Existen funciones de R base que permiten comprobar y coercionar los tipos de datos.
| Tipo | Comprobación | Coerción |
|---|---|---|
| character | is.character() |
as.character() |
| numeric | is.numeric() |
as.numeric() |
| integer | is.integer() |
as.integer() |
| double | is.double() |
as.double() |
| factor | is.factor() |
as.factor() |
| logical | is.logical() |
as.logical() |
| NA | is.na() |
as.na() |
Las coerciones, en ocasiones, provocan que se asignen valores NA porque no son posibles de realizar.
Ejemplo: puedo coercionar un múmero a caracter pero no puedo hacer lo inverso.
Las variables de tiempo pueden estar expresadas en diferentes unidades y formatos (fecha, hora, dia, mes, año, etc…). Dependerá de la tabla de datos, el tipo de estudio, etc.
Las fechas y las horas son complicadas porque tienen que reconciliar dos fenómenos físicos (la rotación de la Tierra y su órbita alrededor del sol), con todo un conjunto de fenómenos geopolíticos que incluyen: formatos distintos (dd/mm/aaaa - mm/dd/aaaa), husos horarios y horarios de verano (en algunas ocasiones y países).
Las variables de tiempo nos obliga a gestionar tipos de datos fecha y hora, así como también intervalos entre esos instantes.
Coexisten 2 clases de objetos básicos en el lenguaje R
POSIX (acrónimo de Portable Operating System Interface, y X viene de UNIX como seña de identidad de la API) es una norma escrita por la IEEE, que define una interfaz estándar del sistema operativo y el entorno. Los objetos fecha-hora se denominan formalmente tipos POSIXt, POSIXct, o POSIXlt (la diferencia no es relevante)
Convertir a formato Date o POSIX
Extraer componentes (día, año, mes, semana, nombre del día, etc)
Trabajar con lapsos de tiempo (intervalos, duraciones y períodos)
Operaciones y cálculos con variables de tiempo
Un año trópico dura 365 días 5 hs 48 min 45,10 s (365,242189 días), por lo que se produce un desfasaje con respecto a nuestro año calendario.
Para realizar operaciones con fechas y date-times sorteando estas dificultades, lubridate ofrece tres tipos de lapsos:
Intervalos: lapso de tiempo que ocurre entre dos instantes específicos.
Duraciones: lapso de tiempo medidos en segundos exactos (máxima unidad temporal con una longitud consistente).
Períodos: intervalo de tiempo en unidades “humanas” mayores que segundos (minutos, días, meses, etc)
Calculo de tiempo entre dos fechas
Para el lenguaje R, todo caracter que se encuentre entre comillas es una cadena de caracteres (en inglés llamada “string”).
Las cadenas de caracteres pueden contener letras (“a”), números (“1”) y símbolos (“&”) o una combinación de todos ellos.
Ejemplos de datos tipo cadena regular:
| Valores ejemplo | Descripción |
|---|---|
| B188 | Códigos CIE10 |
| C34.9 | Topografía CIE-O |
| 9061/6 | Morfología CIE-O |
| GAT-AAU-ATC-GAA | Secuencia ADN |
| 7600XAD | Códigos postales |
El paquete stringr se instala y activa cuando ejecutamos library(tidyverse).
str_lengtht(): devuelve longitud de cadena
str_sub(): extrae o reemplaza caracteres por posición
str_to_upper(): convierte a mayúsculas
str_to_lower(): convierte a minúsculas
str_trim(): elimina espacios en blanco
str_pad(): agrega espacios en blanco u otros caracteres
str_glue(): une cadenas de caracteres
Una expresión regular es una cadena de texto especial para describir un patrón de búsqueda que se puede utilizar generalmente para:
Una expresión regular habitualmente se construye concatenando la especificación de caracteres secuenciados.